2021-03-22 第204回国会 参議院 総務委員会 第5号
現在、総務省は、放送事業者が生放送番組に対する字幕付与設備を導入する際の支援を行っておりますが、それに加え、音声認識技術を活用して、先ほど申し上げた人手、設備、そういうものが多くの人手や高額な設備を要せずに生放送番組に自動的に字幕を付与することができるシステムの開発を支援しているところでございます。
現在、総務省は、放送事業者が生放送番組に対する字幕付与設備を導入する際の支援を行っておりますが、それに加え、音声認識技術を活用して、先ほど申し上げた人手、設備、そういうものが多くの人手や高額な設備を要せずに生放送番組に自動的に字幕を付与することができるシステムの開発を支援しているところでございます。
聴覚障害者団体との間では、NHKが行った、AIの技術を活用した自動音声認識技術を使って字幕を生成してインターネットで配信する実験を実施した際に、デモンストレーションを御覧いただいたり、アンケートに御協力いただいたりしながら、意見交換を行うなどしてまいりました。字幕の精度ですとか表示スピードなどにいただいた御意見を参考にして、引き続き研究開発に取り組んでおります。
ちょっと説明しますと、この「こえとら」は、NICTさんですね、本当すばらしい技術をいろいろと開発されているなというふうに思いましたけれども、NICTさんの音声認識技術及び音声合成技術を用いて開発されたスマートフォン及びタブレット端末用のコミュニケーション支援アプリであります。聴覚障害の皆さんと聞こえる人との間を文字と音声の相互変換でつなぐものということであります。
委員から今例として御紹介いただきましたけれども、NICTの音声認識技術を活用いたしまして音声と文字を相互に変換する「こえとら」や、電話で発話した音声を文字で聴覚障害者等に伝達するNTTドコモの「みえる電話」など、電話リレーサービス以外にも聴覚や発話に障害のある方と耳が聞こえる方との間の円滑なコミュニケーションを支援するサービスが存在をしているところでございます。
これを踏まえまして、総務省では、音声認識技術を活用した放送番組への自動字幕付与に関する実証事業の実施、また公共機関のウエブサイトの利用におけるアクセシビリティーに関するガイドラインの策定、また障害をお持ちの方の利便増進に資する情報通信機器やサービスの研究開発を行う方への助成など、放送と通信の分野におきまして様々な施策を講じてまいりました。
総務省は、これまでも、音声認識技術を活用した放送番組への自動字幕付与に関する実証、また、障害者の利便の増進に資する情報通信機器・サービスの研究開発を行う者などへの助成などの施策を講じてまいりました。 引き続き、しっかりと技術革新に取り組んでまいります。
委員御指摘の音声認識技術につきましては、総務省と厚生労働省で共催をいたしましたワーキンググループにおきまして議論がございまして、技術的に通訳オペレーターを代替するほど成熟していないという指摘があった一方で、補助的に利用することで効率的な通訳の実施に資するのではないかといった御意見も承っているところでございます。
現在は、より多くの番組に字幕を付与するための音声認識技術、CGによる手話アニメーションの自動生成技術、外国語での情報発信に向けた自動翻訳などの研究に取り組んでいます。
福島、静岡、熊本の夕方のニュース番組で自動音声認識技術により生成した字幕をインターネットで配信し、スマートフォンなどの携帯端末で表示しているものであります。 また、解説放送は、昨年度までの指針の目標値を二〇一四年度には達成しております。その後、自主的に上積みしてきました。二〇一七年度、総合テレビの対象番組の一四・一%、Eテレについては一九・二%に解説を付与しました。
あるいは、業務フローの簡素化につきましてはこれまでも取り組んでまいったわけでございますけれども、そのほか、AIを活用した効率的な配送ルートの作成とか音声認識技術を活用いたしました再配達の受付、ロボティクス、ロボットオートメーションですか、こういったものを活用した業務の自動化といった形で作業の負担の軽減に取り組んでまいると。
総務省では、本年度、自動音声認識技術を用いまして視聴されている放送番組の字幕を作成いたしまして、通信回線を利用してスマートフォンやタブレットに表示する実証を行っております。 これは、新たな機器等を購入する必要はございませんで、ふだんお使いになっておりますスマートフォンですとかタブレットですとか、そういったもので利用できるものでございます。
例えば、平成三十年度には音声認識技術の向上のための研究開発とか、字幕が付与されていない放送番組について放送番組と連動してスマートフォンや、スマホやタブレットに字幕を表示させる実証事業などに取り組むこととしています。 総務省としては、引き続き、放送事業者の字幕付与の拡充を積極的に推進し、放送における情報のアクセシビリティーの向上にしっかりと取り組んでまいります。
さらに、昨年七月に情報通信審議会より中間答申されました「新たな情報通信技術戦略の在り方」におきまして、二〇三〇年の同時通訳の実現が目標とされていることを踏まえまして、NICTにおきまして、長文音声認識技術、漸次翻訳処理技術等の基盤技術の研究開発に取り組んでおりまして、これらの課題を解決することにより、同時通訳が実現できるものと考えております。 以上でございます。
そのときに、委員御指摘のとおり、当時、この音声認識システムの技術が発展すれば録音反訳方式にかわり得る方式になり得るということでそういう答弁をさせていただいたと思いますが、その後の音声認識技術の発展を見ますと、現時点で、録音反訳に直ちに使えるようなシステムにはなっていないというのが現状でございます。
○郡委員 長い御説明でしたけれども、音声認識技術というのは、今検索するツールでしかなくなっているんだということだというふうに思いますし、次のいろいろお話しになられたところも反論させていただきたいと思うんですが、まず、後継者の確保と速記タイプの安定供給の問題なんですけれども、養成を停止するということを決められるまでの数年間の速記官の応募者数というのを見てみますと、これは毎年七百人から千名以上に上っているんですね
最高裁判所は、二〇〇四年三月の裁判所法改正案の審議を行ったこの当委員会で、裁判員裁判制度の導入を見据えて開発する音声認識技術によって作成する調書について、これは九割方正確であるというふうに答弁をされました。
私どもは、先ほど申し上げましたように正確な会議録を迅速に作成するという観点からは、なお現在の自動音声認識技術では発言者の認識率に大きなばらつきがあるなど、実用化にはなお改善を要する部分があるというふうに判断をいたしまして、話速変換技術という技術による会議録速成システムというものを採用したということでございます。
○衆議院事務総長(駒崎義弘君) 衆議院におきましては、平成十六年十月の衆議院議院運営委員会理事会における平成十七年度の衆議院速記者養成所学生募集の中止決定を受けまして、衆議院事務局におきまして今後の会議録作成の在り方について調査検討を行った結果、音声認識技術を用いて作成されたテキストを修正する方式、いわゆる音声認識方式を中心として調査検討を進めることにいたしました。
ただ、ただいま音声認識技術という問題も出てまいりましたが、これは新しい技術でございまして、特に一人が話をするあるいは講演をするということについて文字化するという技術は相当に発展しておるわけでございますが、現実の法廷で行われるような非定型の会話を文字化するということに関してはまだ新しい技術という段階で、これから開発をしていかなければならないというものでございます。
また、例えば、録音テープやビデオテープによって生の証言内容を残すことも考えられるほか、技術の進捗状況等を考えまして、音声認識技術の活用といったようなものも考慮して、今後の調書のあり方といったようなものを考えていきたいと思っております。
訴訟というのは生き物で一つ一つがいろんな個性を持っていますから、そういう方法で逐語訳を残すことも一つですが、私なんかは、場合によってはもう書記官の、あれは何というの、要領調書ですか、要点だけをぱっと書いて残しておく、これ辺りの方がむしろいいというような事件の場合もあるだろうと思いますし、あるいは今そのほかに録音反訳もあるだろうし、あるいは音声認識技術、これも言うほど可能性が高いかどうか、諸外国でどうなっているかなどという
これはこれで私はなかなか聞きごたえのある質問であり、また聞きごたえのある答弁もされておると思うんですけれども、もう直ちに中山さんの答弁について、執務の時間のことであるとか、あるいはいろんな速記の方法であるとか、あるいは速記以外の音声認識技術の可能性であるとか、いろんなことについて現場におられる皆さんから疑問や反論が私どものところにも寄せられておるんで、これは司法行政のことですから一々細かく言いませんけれども
また、三月四日付け朝日新聞によりますと、不特定話者に対応する音声認識技術を利用して電子カルテを作成するソフトや議事録作成用ソフトが開発されているほか、テレビ番組の音声の字幕化システムへの応用も検討されているというふうに聞いているところであります。
○中山最高裁判所長官代理者 今委員から御紹介がありましたとおり、今、裁判所では、日本IBMと、音声認識技術をベースにこれを調書化する、しかも、その調書の裏には、その発話された音声というものがリンクされている、こういうものを共同開発中であります。 現在、これは委員の方にもごらんいただきましたけれども、九割方の正確性であるということであります。
裁判所の方では、今後、音声認識技術を開発して、しゃべったものが文字になって転換できるような今開発がなされておる、これに期待しておるというお話があったわけです。この実験、私ども見させていただいたけれども、まだ実用化できるだけにはなっていないですね。
○佐々木(秀)委員 時間がなくなりましたので、最後に、今の点に関連して、もう一回だめ押しの確認をしておきたいと思いますけれども、そうすると、今、音声認識技術がどのぐらいで実用化されるのだということについてはまだお答えがなかったと思いますけれども、それをあと何年ぐらいと見ているのかと、それができた場合には、一〇〇%大丈夫だという、まあ一〇〇%はないでしょうね、九十七、八%なんかになった場合には、今の録音反訳方式
それで、生番組の字幕放送につきましては、音声認識技術とか高速ワープロを活用しまして、今実施しております。現在、アナウンサー以外の方の出演する話とか、それから現場からの中継など雑音が多い場合の音声認識につきましては、レベルアップといいますか、性能向上の技術研究を行っている段階でございます。
具体的に例を挙げますと、センター出資会社である日本電子化辞書研究所は、日本語を自然に処理する基盤技術、自然言語処理エンジンを確立して、これが電子辞書でございますとかワープロの日本語変換技術、インターネットの検索技術、音声認識技術のベースとなるなど、我が国の基盤技術を広く向上させてきているもの、このように考えております。
あるいは愛知県の方は、「字幕が音声認識技術でつくということで驚きましたが、とても正確で誤字もなく、すばらしかったです。量も読める範囲で適当でした。少し遅いのはこれからの進歩を期待しましょう。」と、こう述べておられます。私の地元大阪の吹田の方からは、「NHKニュースの文字放送見ました。本当にうれしいです。生放送に字幕がつくなんて夢のようです。本当にありがとうございます。
そうした中、NHKはニュースに字幕をつけるために、音声認識技術の開発、こういうことを行っていらっしゃると聞いております。 音声認識で認識率一〇〇%というのは大変なことであることは私もわかります。誤りの部分を後で修正する、そして正確な字幕を提供することはできるわけですが、一方、認識に余り時間がかかりますと、今度は画面とのずれが出てきてしまいます。
今、議員のお話で、これに対応するためのいわゆる字幕スーパーから一歩進んだ音声認識技術、このお話がございました。やはり緊急時になりますと、どうしてもまだまだ字幕放送では対応できないわけですね、現実には。この問題を解消するには、音声認識技術、これは話を聞いていますと、今相当進められている、努力されている。